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摘 要 : 随 着 绿色 建筑 和 绿色 生态 城区 经 济 激励 机 制 基本 形成 ， 面 对 大 量 多 维 空间 占用 数据 ,“ 大 数据 绿色 建筑 ”节能 
体系 应 运 而 生 。 然 而 大 量 多 维 的 建筑 数据 却 没有 被 充分 利用 ， 且 传统 空间 占用 检测 模型 分 类 精度 还 不 够 准确 ， 模 型 时 
间 复 杂 度 较 高 。 利 用 UCI 占用 检测 数据 集 , 在 原始 数据 集 上 加 入 时 间 戳 , 使 模型 分 类 精度 均 获得 提高 , 同时 利用 MCMR 
(最 大 相关 最 小 完 余 ) 方法 进行 特征 选择 ， 通 过 随机 森林 作为 分 类 器 验证 分 类 效果 ， 获 取 最 优 特征 子 集 。 且 利用 选取 
的 特征 子 集 构建 占用 检测 模型 ， 其 中 XGBoost 模型 与 随机 森林 模型 (RF) 进行 比 对 ， 分 类 精度 较 高 ， 且 时 间 复 杂 度 更 
低 。 
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Abstract: With the green buildings and green-economic environmental cities are gradually formed, "big data green building" 
energy conservation systems come into being. However, a large number of multi-dimensional building data are not fully utilized 
and occupancy detection with accuracy of traditional algorithms is not accurate with the higher time complexity. This article 


acquired the data of Occupancy Detection from UCI. Add a timestamp to the original dataset, the accuracy is increased. Using 


the MCMR method to select features with maximum correlation and minimum redundancy, random forest is using as classifier 


to verify classification effect . The XGBoost model constructed by the optimal subset is compared with the random forest model 


(RF) , and the classification accuracy is higher and the time complexity is lower. 
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2017 年 3 月 1 号 ,《 住 房 城乡 建设 事业 “十 三 五 ”规划 岗 能 源 有 限 ， 能 源 、 经 济 和 环境 问题 已 经 成 为 一 个 城市 的 热点 话 
要 》 提 出 “发 展 绿色 建筑 、 绿 色 建 材 ， 大 力 强 化 建筑 节能 ” 明  ” 题 ,如 何 合理 的 综合 利用 能 源 ,提高 城市 能 源 利用 效率 、 优 化 资 
确 要 求 “到 2020 年 ， 城 镇 新 建 建筑 中 绿色 建筑 推广 比例 超过 ”” 源 配置 、 保 护 人 类 赖 以 生存 的 自然 环境 已 然 是 当今 社会 关注 的 
50%， 绿 色 建 材 应 用 比例 超过 40%， 新 建 建筑 执行 标准 能 效 要 ”热点 问题 。 同 时 随 着 “大 数据 ”时 代 的 到 来 ， 绿 色 建 筑 发 展 理 
求 比 “ 十 二 五 ”期 末 提 高 20%” 3 月 21 日 ， 以 “提升 绿色 建筑 。 念 上 3 和 数据 挖掘 、 机 器 学 习 等 技术 的 结合 得 到 了 一 定 的 发 展 ， 
质量 , 促进 节能 减 排 低 碳 发 展 "为 主题 的 第 十 三 届 国际 绿色 建筑 ”通过 对 大 量 多 维 异 构建 筑 空间 占用 数据 特征 提取 ， 寻 找 最 优 特 
与 建筑 节能 大 会 茎 新 技术 与 产品 博览 会 在 北京 国家 会 议 中 心 召 ”” 征 子 集 构建 模型 ,进行 空间 占用 检测 ， 提 高 检测 的 分 类 精度 
开 ， 会议 上 除了 从 国家 政策 、 经 济 形势 、 产 品 提 升 、 运 营 管 理 。 是 对 建筑 内 部 相关 能 源 优化 配置 的 一 种 新 方法 。 
等 方面 探讨 ， 技 术 创新 、 平 台 建设 与 大 数据 分 析 等 方面 成 为 建 空间 占用 检测 本 质 属 于 模式 识别 范畴 B-5, 利用 多 传感器 监 
设 绿色 建筑 与 建筑 节能 的 热点 话题 ,由 于 我 国人 口 众多 ,资源 、 测 室内 环境 获取 空间 占用 ， 通 过 特征 的 提取 和 分 类 算法 的 选择 


洒 
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准确 性 


型 输入 值 ， 


上 估计 能 够 年 节省 
器 引入 时 间 特 征 ， 获 得 
能 


进行 分 类 模型 的 构建 ， 对 空间 占 
进行 HV4C 系统 智能 控制 ， 达 到 节 和 
研究 表明 通过 空间 占用 检测 技术 对 HA4VC 进 和 
能 源 29%~80% 左 右 [ 细 0。 通过 摄像 机 与 传 

# 尔 曼 滤 波 算法 模 
间 占 用 检测 准确 率 001。 利 用 、 


够 提高 空 


实时 数据 


和 运动 传感器 进行 实时 


间 被 占 ) 


但 房间 不 温暖 的 时 间 ， 


过 不 同 的 特征 组 合 与 算 


空间 占 上 


法 模型 的 


用 状态 进行 预测 ， 利 ) 


智能 控制 ， 理 


的 目 


， 作 为 扩展 1 


检测 能 够 减少 天 然 气 消耗 和 


预测 的 
的 。 


论 


从 而 提高 空间 的 舒适 度 [9。 
检测 的 准 


二 
结合 ， 


对 空间 占 ) 
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利用 MCMR 特征 选择 方法 进行 特征 选择 , 剔除 关联 度 小 元 
余 度 高 的 HumidityRatio 特征 ,， 利用 随机 森林 作为 分 类 器 ,进行 
迭代 寻 优 ， 获 取 了 最 优 特征 子 集 。 通 过 特征 与 分 类 算法 构建 检 
测 模型 得 到 XGBoost 在 训练 样本 数据 集 上 的 分 类 精度 最 高 ， 精 
度 为 99.41%; SVM 在 测试 样本 数据 集 1 上 的 分 类 精度 最 高 , 精 
度 为 97.90%; BP 在 测试 样本 数据 集 2 上 的 分 类 精度 最 高 ， 精 
度 为 99.07%。 最 后 将 XGBoost 与 随机 森林 (RF) 分 类 方法 进 
行 比较 ，XGBoost 模型 分 类 精度 更 高 ， 算 法 时 间 复 杂 度 更 低 。 
评估 基于 XGBoost 算法 的 多 传感器 数据 源 综 合 分 类 方案 在 空间 


率 也 有 一 定 的 影响 。 提 取 商 业 建筑 现 有 的 环境 资源 ， 包 括 进 
许可 证 、 无 线 记 录 ， 日 程 表 ， 通 信 客 户 端 等 获得 数据 ， 使 ) 


性 日 


策 树 可 以 提高 单一 传 感 


组 合 检测 会 出 现 精度 下 
CO 等 传感器 数据 特征 


委 和 C4.5 算法 进行 占用 检测 准确 
过 决策 树 对 单传 感 器 数据 进行 
进行 多 传感器 数据 特征 
声音 和 CO: 等 传感器 数 志 


林 在 对 全 部 4 


寺 征 组 合 进 


别 分 析 在 仅 只 有 两 个 特征 


组 合 对 


以 发 现 引入 时 间 戳 能 够 提高 空间 占 
征 组 合 ， 却 导致 分 类 模型 分 类 精度 


传感器 特 


预测 的 精确 度 有 影响 上 。 


入 


] 线 
率 达 到 90% 左 右 03]。 通 


用 分 类 中 更 实用 , 为 HAVC 系统 智能 控制 及 构建 绿色 建筑 节 
系 提供 依据 。 


台 忆 
用 人 己 


1 “理论 与 方法 


占用 检测 得 到 的 准确 率 是 97.9%， 

组 合 检测 的 准确 率 可 达 98.4%。 而 加 入 ”1.1 MCMR 特征 选择 方法 
居 时 ， 预 测 的 结果 却 不 太 理 想 ， 得 出 决 基于 关联 性 较 小 元 余 度 较 高 的 特征 ,影响 分 类 模型 的 精度 ， 
器 检测 准确 率 ， 对 过 多 传感器 数据 特征 ”所 以 需要 对 样本 数据 集 进 行 特征 筛选 。 特 征 选 择 目 的 在 于 从 样 
降 现 象 0。 通 过 对 光线 、 温 度 、 湿 度 、 ”本 数据 集合 中 选择 一 个 规模 较 小 的 特征 子 集 ， 该 子 集 能 够 在 数 
组 合 进行 空间 占用 检测 时 ， 发 现 随 机 森 。 ” 据 挖 掘 和 机 器 学 习 任务 中 提供 与 原 集合 近似 或 者 更 好 的 表现 。 
行 预测 时 ， 出 现 过 拟 合 现 象 。 而 线性 判 。 ”在 不 改变 特征 包含 类 别 信 息 量 的 基础 上 ， 较 少 特征 为 数据 提供 
的 准确 率 可 以 达到 97%， 不同 的 特征 了 更 强 的 可 解读 性 I。 传统 特征 选择 方法 中 ， 特 征 之 间 的 相 
通过 上 述 文献 分 析 ， 其 一 , 可 关 性 只 考虑 特征 之 间 的 线性 相关 或 非 线 性 ， 没 有 考虑 特征 之 间 
用 检测 的 准确 率 ， 其 二 ， 多 ”的 全 相关 性 ， 再 者 特征 选择 往往 将 特征 相关 性 和 宛 余 性 分 割 判 


降 ， 分 析 主 原因 


断 ， 无 法 判断 整个 特征 子 集 的 组 合 效应 Pt23。 


是 ， 特 征 与 特征 之 间 具 有 高 度 相 关 性 ， 或 者 存在 见 余 特征 。 某 以 线性 相关 和 非 线 性 相关 为 基础 ， 计 算 特 征 之 间 的 全 相关 
些 特征 包含 类 别 信息 量 较 少 ， 对 分 类 识别 效果 很 低 ， 影 响 模型 ”系数 度量 特征 间 的 独立 和 元 余 程 度 。 同 时 以 信息 论 为 基础 ， 计 
的 分 类 性 能 和 时 间 复 杂 度 。 算 特 征 与 类 别 间 的 互信 息 ， 即 特征 含有 类 别 信息 量 的 大 小 ， 表 
针对 多 传感器 特征 组 合 出 现 模型 分 类 精度 下 降 以 及 时 间 戳 ” 示 特 征 与 类 别 间 的 关联 程度 请?]。 综 合 封装 式 和 滤波 式 两 种 特 
引入 提高 检测 率 等 问题 ， 本 文 提 出 了 一 种 最 大 相关 最 小 元 余 ”” 征 选择 方法 的 优点 ， 本 文 提 出 一 种 最 大 相关 最 小 见 余 MCMR 
MCMR (maximum correlation and minimum redundancy) 的 特征 (Maximum Correlation and Minimum Redundancy) 的 特征 选择 
选择 算法 。 在 UCI 占用 检测 原始 数据 集 上 提取 时 间 变 量 ， 细 化 ”算法 。 
时 间 粒 度 从 而 引入 时 间 戳 形成 新 的 数据 集 ， 在 新 的 数据 集 上 利 假设 样本 集中 想 x,，y 分 别 表示 长 度 为 n 的 成 对 连续 变量 ， 
用 MCMR 进行 特征 的 选择 ， 选 择 出 的 最 优 特征 子 集 作 为 梯度 通过 pearson 相关 , 计算 特征 之 间 的 线性 相关 系数 +,， 如 式 (1) 
所 示 。 


提升 决策 模型 (XGBoost) 算法 的 输入 。XGBoost 是 一 种 梯度 提 


升 框架 下 的 和 


提升 库 ， 在 处 理 


大 量 数 


复杂 度 更 低 


6-18 


。 在 分 


提取 进行 详 旨 


研 


的 优点 与 XGboost 分 布 式 


必 成 学 习 算 法 ， 具 有 灵活 


五 


类 而 


乞 中 


完成 果 较 少 。 本 文 结合 


可 移植 的 分 布 式 决策 梯度 


据 时 ， 保 证 相对 较 高 分 类 精度 下 ， 时 间 


， 采 | 


行 运 


的 角度 达到 了 


提升 空间 


了 模型 的 时 间 复 杂 度 。 


用 自动 


本 文 主要 贡献 如 下 ， 在 
改变 XGBoost 和 RF 算法 无 法 处 理 
加 入 时 间 惟 与 没有 加 入 时 间 戳 的 模型 相 上 
变化 最 明显 的 是 XGBoost 在 testing 测试 集 上 分 类 精度 提高 了 
4.09%，RF 在 testing 数据 集 上 分 类 精度 提高 了 2.78%。 同 时 ， 
RF 7 比 文献 19 引入 时 间 恰 更 合理 。 


原始 


该 方法 对 空间 占 月 
了 MCMR 进行 特征 
算 的 优点 相 结合 ， 


识别 模型 的 ; 


数据 的 基础 ] 


上 ， 加 入 时 间 戳 


时 间 变 量 。 


日 信息 
E 选 择 
从 特征 组 合 
任 确 率 ， 同 时 降低 


» 


实验 结果 表明 ， 
分 类 精度 均 得 到 提高 


三 
[SJ ， 


Sony-y) 
Do -yy 
构造 关联 度 矩 阵 4。 利 用 距离 相关 ， 计 算 特 征 之 间 的 非 线 
性 相关 系数 Re， 构造 关联 矩阵 了 ，dcov(%,y) 为 变量 x, y 的 距离 


(D) 


协 方差 ,dvar(y 与 dvarly) 分 别 为 变量 x，y 的 距离 标准 差 ， 如 式 
(2) 所 示 。 

a deovw yy) 

R: 二 dcor(x, y) 于 dvar(x)dvar( y) 


综合 线性 相关 和 非 线 性 相关 ， 计 算 特 征 之 间 的 全 相关 ， 得 
到 关联 窍 阵 C。 特 征 之 间 的 全 相关 计算 过 程 如 下 ， 全 相关 系数 
为 w。 


ee el tow! ]_2 


G3) 
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其 中 : i, 7 代表 关联 矩阵 中 第 为 列 ， 得 到 全 相关 和 矩阵 C。 
以 信息 论 为 基础 ， 计 算 特 征 与 类 别 间 的 互信 息 用 Ps 表示 
特征 x 取 第 i 个 值 x; 的 概率 ，P(Griljyj) 表 示 类 别 y 取 值 为 yj 时 特 
征 x 取 值 为 x; 的 概率 。x 的 信息 米 (Vy) 及 已 知 变 量 y 后 x 的 条 
件 信息 粮 H(xly) 的 计算 方法 如 下 : 


下 
~ 


H(x) = ->》 px)logp (4) 
Hlx| y= -2 py; )2 pl | y; Nogp(x|y;) (9) 
变量 x、y 之 间 的 互信 息 MG ， 切 可 按 以 下 公式 计算 : 
MI(x,y)=H(x)-H(x|y)=H(y)-H(y|») 
p(y) (0) 
1 
rs 


然而 互信 息 存 在 偏好 等 问题 ， 所 以 本 文采 用 互信 息 率 来 度 
量 特征 x 与 类 别 y 间 的 相关 性 : 


MI(x, y 
H(x) 
此 得 到 的 相关 度 sim(x, 的 取 值 范围 在 [0,1]， 相 关 度 为 
0 表示 两 个 特征 不 相关 ， 相 关 度 为 1， 则 表示 两 个 特征 完全 相 
关 。 

MCMR 特征 选择 算法 描述 如 下 : 

输入 : 训练 集 D = {55 3) (六 );…， (5 ) 

a) 离散 化 及 初始 : 采用 ChiMerge 方法 离散 数据 集 D 中 的 
连续 特征 ， 结 果 仍 用 D 表示 ; 

b) 根据 式 (1) ~~ (2) 计算 数据 集 D 中 任意 两 个 特征 之 间 
的 全 相关 系数 w， 根 据 式 (4) 一 〈7) 计算 数据 集 D 特征 类 别 
之 间 相 关系 数 sim; 

c) 设置 参数 ae[0,1]， 找 出 w>o 相关 特征 ， 比 较 sim 值 ; 

d) 删除 sim 值 较 小 的 特征 , 通过 随机 森林 分 类 器 精度 验证 
合理 性 ， 否 则 ，updata a=a+1， 回 到 第 3 步 ; 

e) end for. 

输出 ， 特征 子 集 4 = 全 到 和， 全 吕 
1.2 梯度 提升 算法 分 类 机 制 

XGBoost (extreme gradient boosting, XGBoost) 是 一 种 基 寺 
GBDT (gradient boosting decision tree，GBD7T) 梯度 下 降 框架 的 
集成 学 习 算法 。GBDT 是 “梯度 下 降 ” 和 决策 树 相 结 合 ， 基 于 
前 一 个 模型 残 差 减少 的 方向 上 ， 构 造 新 的 分 类 器 ， 依 次 迭代 ， 
构造 一 组 弱 分 类 器 ， 弱 分 类 器 输出 结果 进行 加 权 累 加 作为 强 分 
类 器 输出 结果 P829。XCBoost 与 GBDT 区 别 在 于 ,改变 了 GBDT 
基于 Boosting 串 行 序列 化 求解 问题 ,利用 CPU 多 线程 分 布 式 
并 行 计算 ， 并 通过 对 残 差 进行 泰勒 二 次 展开 进行 求解 ， 从 而 打 
破 现 有 库 的 计算 速度 和 精度 ， 使 得 数据 处 理 和 运算 的 速度 得 到 
了 提升 。 
训练 CBD7 分 类 算法 基本 步骤 如 下 : 
输入: 训练 集 D = {5 7) (5 罗 ),…，(51 
a) 初始 F(x) = argminE, [L(y,F())|x|; 


sim(x, y) = 


(7) 


b) B(x) = £ (7); 
c) for m=1,2,...,M do; 
oF, | (>F( 吕 | 
sr 人 
(b) p, =argminE,[L(y,F,, (x)+ pg, (PIX; 
d) Update FF 人 = 人 (可 Dp (x) ; 


(a) 8, (7) = 


lis 


e) end for. 


输出 


A AA 


m=] 

上 述 步骤 中 ，F*(w) 为 寻找 使 得 期 望 损 失 最 小 的 决策 函数 ， 
LF0)) 为 损失 函数 ,gm(%) 为 当前 模型 的 负 梯 度 方向 ，P nm 为 计 
算 损失 函数 的 负 梯 度 在 当前 模型 的 值 ， 将 它 作 为 残 差 的 估计 ， 
估计 回归 树叶 节点 区 域 ， 以 拟 合 残 差 的 近似 值 ， 利 用 线性 搜索 
估计 叶 节 点 区 域 的 值 ， 使 损失 函数 极 小 化 ， 更 新 回归 树 ， 得 到 
输出 的 最 终 模型 (x) 。 

XGBoost 对 损失 函数 op10 做 了 二 阶 的 泰勒 展开 ， 并 在 目标 
函数 之 外 加 入 正则 项 QG;)， 整 体 求 最 优 解 ， 用 以 权衡 目标 函数 
的 下 降 和 模型 复杂 程度 ， 避 免 过 拟 合 。 式 (8) 中 将 目标 函数 做 
泰勒 展开 ， 并 引入 正则 项 : 


op 国 S10, yt + f(x1)) + QU) + constant (8) 
i=] 


用 (1-1) (1-D) 
ey )+Oy YY; Vf + 


人 


0% yy fF OO OF D+ eonstan 
求解 每 个 样本 的 一 阶 导 g; 和 二 阶 导 hi， 将 目标 函数 按 叶子 


节点 归 约 分 组 得 如 下 公式 : 


on = Dla) + 5h)]+ ON) O) 


i=] 


= DOW + H+ 4w) I+ 1T 
j=1 


2 ”空间 占用 检测 模型 构建 流程 


本 文 对 空间 占用 样本 数据 集 加 入 时 间 惟 , 利用 MCMR 特征 
选择 法 , 删除 关联 度 低 , 元 余 度 高 的 特征 , 选取 最 优 特征 子 集 ， 
利用 最 优 特征 子 集 以 及 XCBoost 分 类 算法 构建 空间 占用 检测 模 
型 ， 流 程 图 如 图 1 所 示 ， 主 要 包括 以 下 几 个 步骤 : 

a) 加 入 时 间 惟 ,。 通过 对 原始 数据 集 日 期 变量 进行 重新 提取 ， 
增加 分 类 特征 ， 改 变 原 有 算法 模型 不 能 直接 处 理 时 间 变 量 ， 对 
空间 占用 进行 实时 检测 ， 构 建 样本 数据 集 。 

b) 利 用 MCMR 方法 选择 特征 。 通过 计算 特征 之 间 全 相关 系 
数 ， 及 特征 与 类 别 之 间 的 互信 息 率 ， 选 择 相关 度 较 高 元 余 度 较 
低 的 特征 。 

9] 特征 子 集 选取 及 验证 。 利 用 封装 式 随 机 森林 特征 递归 删 
减法 , 验证 MCMR 特征 选择 方法 的 合理 性 , 获取 最 优 特征 子 集 。 

d) 训 练 分 类 器 构建 。 输 入 上 一 步 选取 的 特征 子 集 作 为 训练 
样本 ， 通 过 和 友 代 建立 一 系列 回归 决策 树 ， 构 成 XGCpoost 分 类 器 


I 
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Ss 1 
学 习 模型 。 四 TP+TN 
. a 准确 度 = 
ejHAVC 系统 智能 控制 。 通过 分 类 器 模型 的 学 习 , 获得 较 高 TP+TIN+FP+FN 


分 类 精度 的 模型 依据 学 习 逻 辑 对 现 有 室内 环境 变量 因素 分 析 ， ”其 中 : TP、 TN、 FP 和 FN 指 的 是 模型 预测 值 落 入 这 些 类 别 中 的 
预测 占用 状态 ， 智 能 调节 HA4VC 系统 ， 达 到 节省 能 耗 的 目的 。 次数， 因此， 准确 度 表 示 正 确 分 类 的 数目 除 于 所 有 预测 值 的 个 


引入 时 间 规 ， 重 新 构建 秤 不 数 。 
数据 集 a 
可 3.3 ”实验 与 分 析 
人 本 文 实验 环境 如 下 : 操作 系统 为 Windows 7, CPU 为 Intel@ 
2 Core™ i5-3210M @2.5GHz， 实 验 内 存 为 4GB， 主 要 实验 平台 R 
本 ion 3.3.3 版 本 
号 随机 森林 分 类 器 效果 ee ” 
人 1) 数据 预 处 理 
v 好 (1) 引入 时 间 截 
了 要 估 怕 全 了 全 由 于 梯度 提升 模型 和 随机 森林 模型 无 法 对 时 间 变 量 直 接 处 
ee 里 ， 所 以 本 文 对 收集 到 的 数据 进行 如 下 处 理 ， 利 用 lubridate 包 
对 时 间 变 量 进行 重新 提取 ， 公 式 10 中 x 代表 原始 数据 中 date 
UL 人 
空调 送 风 | TAR 和 天 a 空调 回 风 Time = hour(x) x3600 + minute(x) x 60 + second(x) davy( 放 
空调 房间 
执行 机 构 , (10) 
个 ng 文献 [19] 对 时 间 变 量 的 处 理 ， 如 式 (11)(12) 所 示 ，NSM 为 
流量 控制 器 < 温度 控制 器 
- Date 样本 中 时 、 分 、 秒 转换 成 总 秒 数 和 ，weekstatus 为 星期 状 
图 1 空间 占用 检测 模型 构建 流程 图 态 ， 休 息 日 为 0， 工 作 日 为 1。 


NSM = hour(x)x3600 + minute(x)x60+second(x) (11) 

3 ”实验 设计 与 结果 分 析 
3.1 实验 数据 

空间 占用 检测 影响 因素 往往 存在 检测 困难 等 问题 ， 所 以 只 本 文中 引入 时 间 惟 相对 文献 [19] 中 的 优点 在 于 ， 细 化 了 时 

能 获得 较 容 易 监测 数据 ， 导 致 大 体 量 超 高 维 数据 很 难 获得 ， 本 ， 间 粒 度 ， 虽 然 文 献 [19] 中 时 间 戳 的 引入 更 容易 解释 ， 但 是 文献 

文 的 数据 来 源 于 UCL 上 Occupancy Detection 数据 集 , 其 中 训练 [19] 中 引入 的 时 间 特 征 为 2 个 ， 本 文 只 有 一 个 特征 ， 而 且 没有 

集 training 和 测试 集 testing 均 是 门 关闭 时 测量 得 到 , testing2 测 。 时 间 信 息 的 丢失 。 在 文献 [19] 中 NSM 变量 值 较 大 ， 没 有 消除 量 

试 集 是 门 打开 时 测量 得 到 , 数据 集 包 含 的 变量 为 : 时 间 (Date)、 级 ， 影 响 模型 训练 的 权重 ， 对 特征 选择 时 ， 依 据 特征 重要 度 排 

温度 7T)、 湿 度 (及 )、 光 照 (Light)、COs 浓 度 〈CO2)、 湿 度 ” 序 时 有 可 能 会 排除 掉 。 本 文中 引入 时 间 戳 ， 处 理 后 得 训练 样本 


0 weekdays(x) = weekend 
Weekstatus = (12) 
1 weekdays(x)= weekday 


ay 


比 CER) 和 占用 状态 (Occupancy)，training 为 8143 条 记录 ， 集 数据 如 表 2 所 示 。 
testing 为 2665 条 记录 ，testing2 为 9752 条 记录 。 其 中 training 表 2 实验 数据 集 
数据 格式 如 表 1 所 示 。 Date T H Light CO2 HR Time Occupancy 
表 1 实验 数据 集 2015/2/4 18:04 23 27.125 419 686 0.004714942 4.752778 1 
Date 工 H Light CO2 HR Occupancy 2015/2/4 18:06 23 27.125 418.5 680.5 0.004714942 4.752778 1 
2015/2/4 18:04 23 27.125 419 686 0.004714942 1 2015/2/418:07 23 272 0 681.5 0.004728078 4.754167 0 
2015/2/4 18:06 23 27.125 418.5 680.5 0.004714942 1 2015/2/4 18:08 22.945 27.29 0 685 0.004727951 4.754861 0 
2015/2/4 18:07 23 27.2 0 681.5 0.004728078 0 2015/2/4 18:08 22.945 27.39 0 685 0.004745408 4.755556 0 
2015/2/4 18:08 22.945 27.29 0 685 0.004727951 0 
2015/2/4 18:08 22.945 27.39 0 685 0.004745408 0 (基于 MCMR 特征 选择 方法 
本 文 提出 基于 特征 之 间 元 余 度 和 特征 与 类 别 间 的 相关 性 相 
3.2 评价 指标 结合 的 特征 选择 方法 ， 主 要 计算 过 程 如 下 : 利用 Pearson 系数 
对 于 空间 占用 检测 模型 ， 本 文选 用 决策 模型 常用 的 混淆 矩 ”对 样本 数据 集 计 算 线 性 相关 矩阵 4， 利 用 距离 相关 系数 计算 特 


UU 


上 
阵 ， 作 为 模型 性 能 评价 指标 ， 对 训练 样本 集 和 测试 样本 集 进行  ” 征 之 闻 的 非 相 关系 数 得 矩阵 了 ， 运 用 式 (3 ) 求 得 全 相关 系数 珑 
性 能 度量 。 阵 C， 相 关系 数 属于 [0,1]， 其 中 (0.8,1] 属 于 极 强 相 关 ，(0.6,0.8] 
使 用 2x2 的 混淆 矩阵 来 表示 预测 准确 度 : 属于 强 相 关 ，(0.4,0.6] 属 于 中 等 强 相关 ，(0.2,0.4] 属 于 弱 相 关 ， 


nt 
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[0,0.2] 属 于 极 弱 相关 或 不 相关 。 可 以 看 
间 的 元 余 程 度 ， 相 关系 数 越 大 ， 宛 余 程度 越 


之 


关 怡 


E 阵 


上 以 相关 系数 度量 特征 


以 随机 森林 算法 作为 分 类 器 ， 通 


三 


息 论 ， 计 算 特 征 之 间 互 信息 率 ， 作 为 衡量 
E， 系 数 越 高 ， 特 征 与 类 别 
通过 计算 求 得 全 相关 入 
HumidityRatio 与 Humidity 全 相 
极 强 相 关 性 ， 元 余 程 度 非常 高 


量 特征 与 类 别 之 间 的 相 
之 间 的 相关 性 越 高 。 
C 如 表 3 所 示 ， 从 表 中 可 以 看 出 
关系 数 为 0.96, 两 特征 2 
，CO2 和 Light 之 间 相 关系 数 为 


高 。 同 时 基于 信 


间 具 


0.596 属于 中 等 相关 ， 其 他 特征 之 闻 相 关 性 较 小 ， 宛 余 程度 低 。 
表 3 全 相关 和 矩阵 C 
T H Light C02 HR Time 
le 1 0.335 0.558 0.518 0.334 0.442 
H 0.335 1 0.299 0.408 0.916 0.583 
Light 0.558 0.299 1 0.596 0.342 0.320 
CO2 0.518 0.408 0.596 0.495 0.335 
HR 0.334 0.916 0.342 0.504 1 0.485 
Time 0.442 0.583 0.320 0.335 0.485 1 
进一步 ， 为 了 明确 度量 各 特征 含有 分 类 信息 大 小 ， 进 行 互 
言 息 的 计算 ， 然 而 数值 型 连续 型 特征 变量 无 法 


Boa0， 所 以 本 文采 


直接 计算 互信 息 


用 ChiMerge 算法 进行 数值 型 特征 离散 化 ， 


ChiMerge 是 最 常用 
的 、 自 底 向 上 的 数 ] 
值 列 为 一 个 单独 
间 ， 通 过 合并 以 形成 更 大 的 


有 


的 者 


的 


近 


< 


于 卡 方 的 离 
居 离 散 化 技术 。 首 9 
区 间 ， 再 递归 


散 


化 方法 , 它 是 一 种 有 监督 
E 将 数据 取 值 范围 
也 找 出 最 佳 邻近 可 合 


内 的 
的 


[2 


所 


义 


区 间 相 关 度 ， 以 确定 最 佳 邻 近 可 合并 的 


区 间 。 它 使 用 


上 E 方 统计 量 来 检测 领 


区 间 。 其 中 Time 离散 


化 为 47 类 、 温 度 (7) 离散 化 为 67 类、 湿度 ( 玉 ) 离散 化 为 274 
类 、 光 照 (Light) 离散 化 为 56 类 、CO; 浓 度 (CO;) 离散 为 239 


类 、 湿 度 比 (HR) 离散 为 718 类 ， 离 散 化 的 训练 样本 数据 集 如 
表 4 所 示 。 
表 4 离散 化 数据 集 

T H Light CO2 HR Time Occupancy 

67 155 21 74 591 1 | 

67 155 22 74 591 1 1 

67 154 21 74 591 1 1 

67 152 21 74 591 1 1 

67 152 21 74 591 1 1 

利用 式 〈3) 对 离散 化 的 特征 ,计算 特征 与 类 别 之 间 的 相关 


对 相 关 


系 


数 


3 
耳 


w 


量 ， 最 小 的 是 Temperature 变量 。 


生 系数 w， 得 到 表 5 所 示 结 果 ， 从 表 5 可 以 看 出 ， 特 征 包含 类 
别 信息 比率 最 大 的 是 Time 变 


三 


出 


排 


溉 


行 


进 


Time>Light>Humidity>HumidityRatio>CO2>Temperature。 


二 人 品 3 
表 5 特征 与 类 别 相关 矩阵 C 
工 H Light CO2 HR Time 
Occupancy 0.245 0.303 0.460 0.289 0.293 0.552 


自 


7 


HumidityRatio 特征 删除 是 合理 的 。 


子 集 ， 初 始 化 设 
表 可 见 变量 个 数 为 5 时 ， 选 出 的 特征 
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过 a 的 迭代 寻找 最 有 特征 


io=0.4， 每 次 加 0.1, 遍 历 结果 如 表 6 所 示 。 从 


为 : Light，CO2，Humidity，Temperature ，Time 。 其 中 


子 集 为 最 优 子 集 ， 特 4 


下 


表 6 特征 选择 结果 


Accuracy 
a 数值 Parameters 
accuracy kappa 
0.4 Light ,Time 99.27% 97.81% 
0.5 Light,CO2,H ,Time 99.38% 98.15% 
0.6 Light,CO2,H,T , Time 99.39% 98.16% 
Light,CO2,H,T,HR,Time 99.37% 98.11% 
2) 实验 结果 及 分 析 


中 


数据 预 处 理 阶段 选择 出 的 最 优 
中 时 间 惟 的 引入 ， 构 建 分 类 模型 。 获 得 表 7 的 实验 结果 。 


特征 子 集 ， 以 及 样本 数 


ml 


表 7 实验 结果 比较 


Accuracy 

Model Parameters 
training testing Testing2 
XGBoost 1 Light,CO2,H,T,HR,Time 99.41% 97.67% 97.65% 
RF 1 Light,CO2,H,T,HR,Time 99.37% 97.71% 98.15% 
文献 19 Light,CO2,H,T,HR,NS,WS 99.36% 95.53% 98.06% 
XGBoost 2 Light,CO2,H.,T,HR 99.31% 93.58% 95.37% 
RF 2 Light,CO2,H.,T,HR 99.30% 94.93% 97.21% 
XGBoost 3 Light,CO2,H,T ,Time 99.41% 97.75% 97.52% 
RF_3 Light,CO2,H.,T,Time 99.38% 97.67% 97.36% 
C50 Light,CO2,H.,T,Time 99.40% 97.75% 98.26% 
SVM Light,CO2,H.,T,Time 98.71% 97.90% 93.64% 
BP Light,CO2,H.,T,Time 98.72% 97.86% 99.07% 

(1) 时 间 惟 对 分 类 精度 影响 


加 入 时 间 戳 与 没有 时 间 戳 的 特征 
示 ，XGBoost_1、RF_1 与 文献 19 均 是 没 


入 时 间 惟 ， 与 没 经 特征 选择 的 ， 同 时 


相 比 ，XGBoost 1 比 XGBoost 2 在 testing 数据 集 
RF_1 比 RF_2 在 testing 数据 集 上 分 类 精度 
高 了 2.78%， 加 入 时 间 戳 的 模型 整体 分 类 精度 均 得 到 提高 。 再 
E， 所 得 分 类 模型 分 类 精度 在 每 个 


提高 了 4.09%， 


者 RF_1 比 文献 19 对 时 间 处 理 


数据 集 都 高 ， 


(2) 实验 结果 


利 


说 明 本 文 的 加 入 时 间 戳 
比较 


上 述 步 又 获得 的 最 优 特征 子 


集 


组 合 进 行 比较 ， 如 表 7 所 
经 过 特征 选择 时 加 
也 没有 引入 时 间 戳 的 模型 
上 分 类 精度 


IL 


的 方法 更 加 合理 。 


通过 调整 参数 寻 得 最 


代 ， 


优 分 类 模型 XGBoost 3、RF 3、C50、SVM、BP 等 如 表 7 所 
示 ，XGBoost 3 在 训练 样本 数据 集 上 


99.41%; SVM 在 测试 样本 数 


忆 仙 
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97.90%; BP 在 测试 样本 数据 集 2 上 


99.07%。 


的 分 类 精度 最 高 ， 精 度 为 


1 上 的 分 类 精度 最 高 , 精度 为 


日 
的 分 类 精度 最 高 ， 精 度 为 
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其 
测 
为 
样 


97. 


此 


uracy 


中 XGBoost 3 模型 的 训练 集 上 准确 率 为 99.41%， 在 testing 
试 样本 的 准确 率 为 97.75%， 在 testing2 测试 样本 集 上 准确 率 
97.52%。RF_3 训练 集 上 的 准确 率 为 99.38%， 在 testing 测试 
本 的 准确 率 为 97.67%， 在 testing2 测试 样本 集 上 准确 率 为 


油 


精度 为 99.07%。 同 时 XGBoost 和 RF 分 类 模型 ， 两 者 相 比 ， 
XGBoost 模型 分 类 精度 更 高 ， 算 法 时 间 复 杂 度 更 低 。 


今后 的 工作 将 更 加 深入 地 研究 空间 占用 检测 影响 因素 ， 在 
原 有 硬 传感器 的 基础 上 寻找 可 蔡 代 的 软 传感器 获取 占用 影响 变 
量 ， 减 少 资源 的 浪费 。 同 时 通过 观测 得 到 影响 因素 数据 对 空间 


36%。 如 图 2 所 示 ，XGBoost 3 模型 的 分 类 精度 在 最 优 子 集 
均 高 于 RF_3 模 型 的 分 类 精度 ,在 testing 数据 集 上 差距 最 大 。 


model 
国 bruoncoonunurnnoauorne 
国 ,eaosancozhmawrenpeauomme 


0 


杂 


算 
的 
对 
数 


Training Testng Tesingz 
样本 集 


图 2 XGBoost 和 RF 最 优 特 征 组 合 


过 分 类 精度 对 模型 的 性 能 进行 了 评价 ， 再 从 时 i 
ee 时 间 复 杂 度 函数 定量 地 描述 一 个 
法 模型 的 运行 时 间 ， 对 于 大 量 数据 的 处 理 ， 本 文 在 寻求 准确 
分 类 精度 的 同时 ， 仍 然 追 求 算法 模型 处 理 数据 的 时 间 能 够 相 
较 短 。 本 文通 过 caret 寻 优 时 得 到 的 参 值 , 作为 原 有 算法 的 参 
值 ， 利 用 原 有 算法 包 重 新 构建 分 类 模型 把 XGBoost 模型 和 


交 


RF 模型 时 间 复 杂 度 进行 对 比 , 通过 调用 system.time(O 函 数 得 到 


表 


8 的 时 间 复 杂 度 , 由 表 可 知 与 传统 的 随机 森林 相 比 , XGBoost 


模 


型 用 时 更 少 ， 主 要 原因 在 于 XGBoost 算法 采用 分 布 式 设计 ， 


从 而 降低 了 时 间 复 杂 度 。 


表 8 模型 时 间 复 杂 度 


Model Parameters running time/s 
XGBoost Light,CO2,Humidity, Temperature ,Time 0.4500 
RF Light,CO2,Humidity,Temperature ,Time 2.2000 
4 ”结束 语 


相 
测 
精 


本 文 主要 的 工作 是 对 空间 占用 检测 进行 研究 ， 在 原始 数据 
基础 上 ， 加 入 时 间 戳 ， 改 变 XGBoost 和 RF 算法 无 法 处 理 时 
变量 ， 实 验 结果 表明 ， 加 入 时 间 惟 与 没有 加 入 时 间 戳 的 模型 
比分 类 精度 均 得 到 提高 , 变化 最 明显 的 是 XGBoost 在 testing 
试 集 上 分 类 精度 提高 了 4.09%，RF 在 testing 数据 集 上 分 类 
度 提高 了 2.78%。 同 时 , RF_1 比 文献 19 引入 时 间 惟 更 合理 。 


后 
元 
种 


时 利用 MCMR 特征 选择 方法 进行 特征 选择 ， 剔 除 关 联 度 小 
余 度 高 的 HumidityRatio 特征 , 利用 随机 森林 作为 分 类 器 , 进 
迭代 寻 优 ， 获 取 了 最 优 特征 子 集 。 通 过 特征 与 分 类 算法 构建 


检测 模型 得 到 XGBoost 在 训练 样本 数据 集 上 的 分 类 精度 最 高 ， 


精 
精 


度 为 99.41%; SVM 在 测试 样本 数据 集 1 上 的 分 类 精度 最 高 ， 
度 为 97.90%; BP 在 测试 样本 数据 集 2 上 的 分 类 精度 最 高 ， 


mt 


5 用 人 员 个 数 进行 预测 和 设置 资源 利用 标准 对 空间 进行 合理 的 
分 配 ， 使 得 资源 得 到 充足 利用 。 
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